http://www.arocmag.com/article/02-2019-03-001.html 


稀 踊 条 件 下 的 重 倒 子 空 间 聚 类 算法 
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摘 要 : 现 有 子 空间 聚 类 算法 不 能 很 好 地 平衡 子 空间 数据 的 稠密 性 和 不 同 子 空间 数据 稀 路 性 的 关系 ， 且 无 法 处 理 数据 
的 重 登 问题。 针对 上 述 问题 ， 提 出 一 种 稀 路 条 件 下 的 重合 子 空间 聚 类 (OSCSC) 算 法 。 算 法 利用 i 范 数 和 Frobenius 范 数 
的 混合 范 数 表示 方法 建立 子 空间 表示 模型 ， 并 对 外 范 数 正则 项 进行 加 权 处 理 ， 提 高 不 同 子 空间 的 稀 玻 性 和 同一 子 空间 
的 稠密 性 ; 然后 对 划分 好 的 子 空间 使 用 一 种 服从 指数 族 分 布 的 重 登 概率 模型 进行 二 次 校 验 ， 判 断 不 同 子 空间 数据 的 重 
登 情 况 ， 进 一 步 提高 聚 类 的 准确 率 。 在 人 造 数据 集 和 真实 数据 集 上 分 别 进行 测试 ， 实 验 结果 表明 ，OSCSC 算法 能 够 获 
得 良好 的 聚 类 结果 。 
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Novel algorithm of overlapping subspace clustering under sparse condition 


Qiu Yunfei’, Fei Bowen?®', Liu Dagian’®, Liu Xing* 
(a. School of Sofiware, b. School of Business & Management, c. School of Electronics Information Engineering Liaoning 
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Abstract: The existing subspace clustering algorithms cannot balance the density of the data in the same subspace and the 


sparsity of the data between different subspaces and most algorithms cannot solve the overlap of data. To solve the above 


problems, this paper proposed a novel algorithm of overlapping subspace clustering algorithm under sparse condition (OSCSO). 


The algorithm used the mixed norm representation method of L1 norm and Frobenius norm to establish the subspace 
representation model, and the weighted L1 norm regular term could improve the sparsity of different subspaces and the density 
of the same subspace. Then, the algorithm performed rechecks on the partitioned subspaces by using an overlapping probability 
model subject to exponential family distribution to determine whether exist overlapping in different subspaces, which could 
further improve the accuracy of clustering. The results of the experiment on both artificial datasets and real-world datasets show 
that the algorithm has better clustering performance by being compared to other contrast algorithms. 


Key Words: overlapping subspace clustering; mixed norm; overlapping probability model; exponential family distribution 


方法 、 代 数 方法 、 统 计 方 法 、 基 于 和 矩阵 分 解 的 方法 和 基于 谱 聚 

类 的 方法 四。 其 中 较为 流行 的 子 空间 聚 类 算法 是 基于 谱 聚 类 

聚 类 分 析 是 数据 挖掘 领域 的 重要 研究 内 容 之 一 ， 在 机 器 学 架 的 方法 ， 例 如 稀疏 子 空间 聚 类 (sparse subspace clustering, 

习 、 医学 生物 分 析 和 计算 机 视觉 等 方面 具有 广泛 应 用 [3 站。 近 些 SSO)D 方 法 、 最 小 二 乘 回 归 子 空间 聚 类 算法 (least squares 
FE 来 数据 规模 迅速 增长 ， 数 据 规模 和 维度 也 越 来 越 大 ， 在 处 理 regression，LSRJI 和 低 秩 表示 子 空间 聚 类 算法 (low-rank 
和 分 析 这 样 的 数据 集 时 ， 由 于 样本 分 布 稀疏 ， 数 据 间距 离 几 乎 。”“ representation, LRR)91。 以 上 三 种 方法 通过 将 某 个 数据 样本 由 其 
相同 ， 传 统 的 聚 类 方法 往往 无 法 获得 准确 的 聚 类 结果 向 。 他 样本 线性 表示 构建 相似 度 和 矩阵 并 将 其 转换 为 Laplacian 矩阵 ， 
为 了 解决 数据 规模 较 大 和 数据 维度 较 高 等 问题 ，Agrawal 。” 然后 对 该 矩阵 特征 分 解 ， 根 据 谱 聚 类 的 思想 对 得 到 的 特征 值 和 

等 人 器 首 次 将 子 空间 聚 类 的 概念 应 用 于 聚 类 问题 的 分 析 中 。 此 村 征 向 量 进行 聚 类 。 在 此 基础 上 , Xu 等 人 09 提 出 重 加 权 稀 玻 子 
后 ， 根 据 这 一 思想 ， 国 内 外 学 者 和 研究 人 员 相继 提出 了 许多 子 空间 聚 类 (reweighted sparse subspace clustering, RSSC) 方 法 ， 利 
空间 聚 类 方法 。 现 有 子 空间 聚 类 方法 可 大 致 被 分 为 5 类 : 迭代 用 log-sum 启发 方法 对 于 范 数 进行 迭代 加 权 ， 提 高 子 空间 稀 玻 
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性 。Zhang 等 人 [I 
法 , 在 构建 子 空间 


蔡 秩 函数 ， 并 利用 


非 精确 的 


到 最 优 系数 矩阵 。 


兽 广 拉 格 朗 


提出 一 种 基于 低 秩 表 示 的 子 空间 
聚 类 模型 时 , 采用 核 范 数 和 Frobenius 范 数 代 
日 乘 子 方法 


进行 优化 得 


上 述 子 空间 聚 类 算法 虽然 从 一 定 程度 上 提高 了 聚 类 性 能 ， 


但 由 于 其 均 属于 硬 划 分 聚 类 方法 ， 忽 略 了 数据 复 间 存在 重 受 的 


问题 。 在 实际 处 


里 子 空 间 


在 重 益 部 分 ， 不 完 


Ne 


据 间 的 结构 关系 ， 


法 处 理 数 据 间 的 重 车 问题 ， 判 
簇 。 Fu 等 人 提出 了 一 种 贝 叶 
overlapping subspace clustering, BOSC)， 通 过 构建 数 
次 生成 模型 来 发 现 数 扫 


断 某 一 数据 相 


聚 类 问题 时 ， 不 同 子 空间 的 数据 会 存 
全 独立 ， 在 进行 聚 类 时 会 导致 一 些 数据 不 能 
归 到 正确 的 子 空 间 内 ， 影 响 聚 类 精度 5。 根据 数据 划分 不 确定 
性 ，Banerjee 等 人 (3 提出 一 种 基于 模型 的 


和 登 聚 类 算法 (model- 


based overlapping clustering, MOC)， 该 算法 利 | 


概率 模型 的 方 


# 本 是 否 属于 多 个 类 
斯 重 闪 子 空间 聚 类 算法 (Bayesian 


据 矩 阵 的 层 


居间 的 重 闭 结构 ， 该 算法 没有 充分 考虑 数 


在 处 理 维 数 较 高 的 数据 集 时 效率 较 低 。 
针对 上 述 聚 类 算法 存在 的 问题 ， 本 文 提 出 一 种 稀疏 条 件 下 


的 重 倒 子 空间 聚 类 算法 (overlapping subspace clustering under 


sparse condition,OSCSC)， 算 法 利用 加 权 1 范 数 和 Frobenius 范 


数 的 混合 范 数 子 空间 表示 方法 对 数据 空间 进 


地 保证 


然后 使 用 


判断 其 是 否 属于 多 个 子 空间 。 
上 -对 数据 机 


类 方法 的 基础 J 
属于 多 个 子 空间 ， 


归于 到 正确 的 子 空 间 内 ， 能 够 有 效 # 


行 划分 ， 能 够 更 好 
司 一 子 空 间 数据 的 稠密 性 和 不 同 子 空间 数据 的 稀 琉 性 。 


种 重 辣 概率 模型 对 子 空间 内 的 数据 进行 重 闭 校 验 ， 


1 子 空 间 聚 类 


po 


近 


FE 来 ， 子 空 


本 文 算法 


lL 本 进行 重 天 类 
当 子 空间 划分 过 程 发 4 


三 二 三 可 
是 高 聚 


zs 间 聚 类 成 为 处 理 


有 高 和 


主要 基于 稀 玻 子 空间 
上 叮 ， 人 允许 一 个 数据 对 象 
错误 时 有 利于 将 数据 
类 的 准确 率 。 


数据 的 主要 研究 方法 。 
其 中 以 谱 聚 类 为 基础 的 子 空间 聚 类 方法 得 到 了 广泛 关注 。 


聚 


方法 通过 寻找 低 维 


算法 均 具 有 这 样 


Xj 可 


其 中 : n 为 数据 点 个 数 ， ;为数 提 
于 构建 相似 矩阵 ; 


i 


怕 


和 矩阵， 然后 利用 谱 聚 类 算法 得 到 最 终 
E 质 ， 认 为 在 整个 数 # 
其 他 数据 点 线性 表示 


空间 的 表示 系数 构造 基于 


自 表达 模型 的 相似 


3 
= Dz AH 


i#j 


和 聚 类 结果 。SSC 和 LSR 
居 空 间 内 的 每 个 数据 点 


(D) 


局 点 太 和 ;之 间 的 相似 系数 ， 


7; 用 于 


据 。 当 克 和 态 ; 不 


上 


SSC 算法 求解 子 空 间 聚 类 模型 可 表示 为 


min zl 


其 中 ，| .| 为 二 范 数 ， 科 =[6， wxw] 为 数据 和 


st. X=XZ, zi =0 


述 自 表示 模型 中 的 偏差 或 噪声 数 
届 于 同一 子 空间 时 z=0 。 


(2) 


E 阵 。 zj 组 


乙 起 由 


成 的 系数 矩阵 。 对 于 有 噪声 数据 ，SSC 可 以 扩展 为 


minlx -xz +|zl szzy=o 


LSR 通过 最 小 化 系数 矩阵 Z 的 Frobenius 范 数 建 
标 函 数 : 


六 
< 
对 
-7 
本 


min|zl st X=XZ, z,=0 (4) 
对 于 有 噪声 数据 ，LSR 可 扩展 为 
min|X — XZ + 4|Zl st.z,=0 (5) 


根据 相似 矩阵 的 对 称 性 和 非 负 性 , 相似 矩阵 丈 可 被 定义 为 


5=34z+|2) (6) 


然后 将 谱 聚 类 应 用 于 相似 矩阵 中 获得 聚 类 结果 。 
2 ” 稀 玻 条 件 下 的 重 侄 子 空间 聚 类 


本 文 提出 的 OSCSC 算法 融合 子 空 间 聚 类 以 及 重 盖 聚 类 的 
思想 ， 旨 在 不 同 子 空间 的 重 麦 聚 类 问题 。 本 文 算法 利用 迭代 加 
权 的 范 数 和 Frobenius 范 数 的 混合 范 数 表示 方法 建立 子 空间 
聚 类 模型 ， 将 高 维 数据 通过 低 维 子 空间 线性 表示 ， 使 用 线性 交 
蔡 方向 法 对 模型 进行 优化 。 然 后 对 得 到 了 子 空间 结果 采用 重 车 
概率 模型 估计 数据 的 重 受 情况 。 本 文 算法 与 以 往 基于 硬 划 分 的 
子 空间 聚 类 技术 的 不 同 之 处 在 于 允许 某 一 数据 属于 一 个 或 多 个 
子 空 间 ， 可 进一步 提高 聚 类 精度 ， 减 少 聚 类 错误 。 

2.1 加 权 混 合 范 数 的 子 空间 表示 
2.1.1 子 空间 表示 模型 

子 空间 聚 类 方法 核心 在 于 子 空间 模型 的 建立 。 本 文 结合 
SSC 和 LSR 算法 思想 ， 提 出 一 种 混合 范 数 的 子 空间 表示 方法 ， 
在 保证 类 间 数 据 稀 琉 的 同时 ,增加 类 内 数据 的 稠密 性 。 定义 X 


了 站 


为 MxN 的 数据 矩阵 ， 包 含 N 个 列 向 量 {x, seRY}” 可 ! 


子 空 间 线 性 表示 , 子 空间 聚 类 的 目的 是 将 数据 矩阵 X 中 的 列 向 
量 x 划 分 到 正确 的 子 空间 中 。 子 空间 聚 类 模型 可 表示 为 


: 1—4,,,2 
min 4| + 一 他。 0) 
对 于 有 噪声 的 数据 集 ， 模 型 可 以 表示 为 
1 一 4 2 2 
min 4|z + 一 人 + 低下 (10) 


其 中 : | | 为 Frobenius 范 数 ，4e[0,1] 为 权衡 系数 , 用 于 权衡 
两 个 正则 化 项 间 的 关系 ，Z 为 系数 矩阵 ， 提 供 了 关于 子 空间 的 
向 量 分 割 问题 的 条 件 。 
2.1.2 加 权 方 式 

在 处 理 实际 的 问题 时 ， 真 实数 据 集 内 的 数据 间 情 况 复杂 ， 
只 通过 正则 化 项 保证 子 空间 稀 疏 性 的 效果 并 不 理想 。 文 献 [10， 
15] 均 提出 针对 五 正则 化 项 的 加 权 方 法 ， 并 经 过 大 量 实验 证 明和 迭 


代 更 新 权 值 的 1 范 数 (min 上 wa) 与 单独 运 


所 范 数 (min 由 ) 


相 比 能 够 获得 更 为 稀疏 的 系数 结构 ， 平 衡 了 4 范 数 和 4 范 数 间 
的 差异 ， 使 i 更 能 允 近 1。。 文 献 [14] 通 过 求解 
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min Sn(lx|+e) ， St Ax=b (11) 
和 迭代 更 新 得 到 加 权 方 式 
= 人 (中 + (12) 


其 中 : wi 为 数据 点 称 在 第 1 次 迭代 中 对 应 的 权 值 ，& 为 控制 参 
数 。 本 文 将 迭代 加 权 4 范 数 的 思想 应 用 于 混合 范 数 子 空间 表示 
模型 中 ， 则 式 (10) 可 以 表示 为 


区 


1 一 4 
min dw OZ + 3 rx -x2 3) 


2.1.3 模型 优化 求解 
针对 优化 问题 式 (13) 可 将 其 转换 为 
. 1-4 
min 4AW 02) + "zh + 


U4) 
st. X -XZ=E, z=0 


对 上 述 问 题 利用 线性 交 蔡 方向 法 (linearized alternating 
directions method, LADMDU9 优 化 。 通 过 引入 拉 格 朗 日 乘 子 4， 
得 到 增 广 拉 格 朗 日 函数 


1 一 4 2 
L262 oz + 4k + 


网 
(15) 
+ -Xz -El tu (Xx -XZ-E) st. zi =0 


其 中 ，p > 0 为 惩罚 参数 。 利 用 LADM 优化 问题 式 (15), 首先 定 
义 为 迁 代 次 数 ， 国 定 EW ， 更 新 Zero ， 即 


(k+l) _，， ， (pH) DY 
筷 =min LZ ,EA )S 


Dj liyr 大 k AH l= 
| (16) 
7 [2) p' 2D 


k+l 
StZg =0 


其 中 : 9:() 为 收缩 阔 值 算 子 ， 有 具体 定义 为 
S,(g) =sgn(g)max(d|-z0) ,9 =1.1c2(c 为 数据 矩阵 了 的 最 大 
奇异 值 )。 
然后 固定 Z%*? ， 更 新 BE ， 即 
ULO+PO(X 一 XZ4D) 
2+p™® (17) 


EW*D =min AZ BO pe) 
st.20") =0 
最 后 ,分别 更 新 拉 格 朗 日 乘 子 4 和 惩罚 参数 Pp, LADM 具 
体 优 化 过 程 如 下 。 
算法 1 利用 LADM 优化 问题 式 (15) 
输入 : 数据 矩阵 闷 权衡 系数 4 
输出 : 系数 和 矩阵 Z， 噪 声 矩 阵 书 


初始 化 : Z =0，E0 =0, 1 =0，p0 =10 ,7 =1.6， 
0=1.10’, 6&=10°, é&,=10°5 
固定 EW ， 更 新 Z%*? 
ZH+D se min L(Z®,E®, nu®) 
9 ， Es LXT(X XZO EW A) 52 
po 0 p™ 2p® 


(k+l1) 
st.zy =0 


固定 ALR 更 新 ELD 


we 上 + DO(X = ZE) 
2+p® 


k+l 。 (k+l 大 (Kk) 
ED =min LZ BD, WM)= 
信守 
st.zy "=0 


更 新 权 值 


更 新 拉 格 朗 日 乘 子 
ha AL 二 DO(X XZ -= EW'») 
更 新 惩罚 参数 p*? =min(y.p",10") 


收敛 条 件 : 


区 =- 了 12 -EV| 7 <s， 


max(|E® 一 | /Xs|z® -Ze / |x|;) < 已， 


上 式 可 得 出 优化 后 的 系数 矩阵 Z” ， 进 而 得 到 相似 矩阵 


U0 = 了 (ZH1(Z”|) ,然后 利用 一 种 标准 分 制 法 Neutr"7 对 子 空 


间 进 行 分 割 并 得 到 子 空间 集合 。 
2.2 重生 概率 模型 
尽管 使 用 加 权 的 混合 范 数 子 空间 表示 方法 能 够 提高 同一 子 
空间 数据 的 稠密 性 和 不 同 子 空间 数据 的 稀疏 性 ， 但 子 空间 聚 类 
过 程 中 依然 存在 错误 ， 且 该 方法 属于 硬 划分 聚 类 方法 ， 


般 只 
允许 一 个 数据 样本 仅 属 于 一 类 ， 当 聚 类 发 生 错 误 时 无 法 校 验 。 
针对 此 问题 ， 本 文 使 用 一 种 重 半 概率 模型 用 于 判断 已 划分 的 子 
空间 内 数据 是 否 可 以 属于 多 个 子 空间 , 给 定 高 维 数据 集 ， 将 


已 得 到 工 个 子 空间 集合 表示 为 UL,5, ， 其 中 每 个 子 空间 都 代表 
一 类 数据 。 设 了 = UU…U 为 来 自 子 空间 U5, 的 数据 。 
针对 (S$,7) 进行 二 次 校 验 ， 判 断 子 空间 是 否 存在 重 闭 部 分 。 这 
样 当 数 据 被 误 分 时 可 以 及 时 校 验 其 是 否 属 于 其 他 子 空间 ， 能 够 
进一步 提高 聚 类 的 准确 率 。 
重 登 概率 模型 是 一 种 服从 指数 分 布 族 03 的 概率 模型 ， 指 数 
分 布 族 的 定义 是 指 概率 分 布 满足 以 下 形式 


万 (y19)=ep{or(y)-o(9] (18) 


其 中 :7T(y) 是 分 布 的 充分 统计 量 ，09 为 
不 同 子 空间 内 重合 概率 模型 的 条 件 概 率 可 表示 为 


p010) -340 


其 中 :5=[b,…,bi | 为 一 组 布尔 向 量 ( 潜 变 量 )， 用 于 判断 数据 的 
重生 情况 ， 己 s{0, 直 ，b 中 每 个 元 素 均 对 应 一 个 子 空间 。c(b) 
为 归 一 化 数 。 定义 z(2) 为 5b 的 先 验 , 每 个 向 量 b 都 对 应 着 一 个 
x(5b) ， 若 向 量 中 所 有 元 素 均 为 零 时 ， 则 令 x(0)=0， 表明 在 
数据 集 内 会 存在 一 些 离 值 点 ， 它 们 并 不 属于 任何 徐 ， 但 是 这 些 
值 往往 不 能 被 忽略 不 计 ， 由 于 其 不 属于 重 赤 概率 模型 的 结构 ， 
所 以 式 (19) 可 以 表示 为 


然 参 数 ，9(9) 为 累积 


(19) 
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5 bz0 


ps sjllr(lo) 


p(y10)=15 
区 
重 二 概率 模型 的 每 个 component 都 服从 于 同一 指数 族 分 布 ， 
则 式 (19) 可 被 改写 为 
p(y|9， 出 so 六 ro)- po CD) 
直接 计算 得 
c(D) -onl 220)-; 2 eg 
c(b) 的 闭合 形式 可 以 得 到 
p(y|0,2) -oplr() na -oSn0] (23) 
从 上 式 可 以 看 出 条 件 概率 p(y|9,5) 的 每 项 component 均 


(20) 
b=0 


(22) 


利用 


ed 


服从 自然 参数 为 4b0 的 指数 族 分 布 。 


于 潜 变 量 b 是 一 组 布尔 向 量 ，x(5) 为 b 的 先 验 , 其 中 每 
个 元 素 服从 伯 努 利 分 布 Bernoulli 几 ， 而 少 先 验 分 布 服从 贝塔 
分 布 Beta{fw,B} 。 将 其 代入 式 (21) 中 可 以 得 到 概率 模型 的 联合 
分 布 为 


2, ,0 的 参数 值 ， 由 于 每 个 子 空间 的 数据 点 定义 了 一 组 布尔 向 
量 记 ， 利 用 包 , 优化 得 到 最 大 对 数 似 然 。 在 参数 估计 部 分 ， 给 
定 布尔 向 量 集 b, 的 参数 值 ， 利 用 参数 wx, B, 9 的 值 来 优化 对 数 
似 然 函 数 ， 具 体 过 程 如 下 : 


1) 布 尔 选择 
a) 给 定 初 始 Q,B,0 值 ; 
b) 对 于 任意 数据 点 , 令 刀 ,为 初始 赋值 向 量 (简写 为 5 ), 定 


义 向 量 v 为 第 7 个 元 素 为 1， 其 余 元 素 为 0 的 布尔 向 量 ， 构 成 
布尔 集 V ={y,…v}; 

go] 将 布尔 向 量 的 迭代 计算 亦 分 为 KIL=1…, 民 ) 层 ， 采 用 快速 
启发 式 欠 代 法 0 计算 每 层 所 选 的 布尔 向 量 的 最 优 解 己 ,; 

qd) 利用 模拟 退火 算法 在 选择 布尔 向 量 的 过 程 中 跳出 局 部 极 


值 ; 


对 于 每 层 得 到 布尔 向 量 & 设置 一 个 初始 温度 参数 到 ， 则 


布尔 向 量 可 表示 为 好， 定义 方 <1 为 乘 性 因子 ,用 于 保证 在 每 


次 迭代 中 温度 参数 了 均 呈 下 降 趋 势 ， 最 大 返 代 次 数 J。 在 得 到 
新 的 一 层 布尔 值 时 需要 进行 迭代 判断 ， 将 搜索 产生 的 新 的 布尔 


和 pr 与 53 进行 比较 ， 若 加 < 三 或 达到 最 大 和 迭代 次 数 时 ， 该 


层 和 迭代 终止 。 选 择 每 一 层 的 最 优 布尔 向 量 集 久 
Ti =50， 方 =0.67，, 太 40)。 
当 必 的 值 为 1 时 ， 认 为 该 样本 数据 属于 其 对 应 的 子 空 间 。 
若 久 =0 则 认为 该 样本 数据 不 属于 对 应 的 子 空 间 。 当 一 组 布尔 
向 量 中 有 两 个 或 两 个 以 上 元 素 的 布尔 值 为 1 时 ， 可 以 认为 该 样 


。 (本 文 参数 取 值 : 


p(y,b,G|a, B,0)= 
] n) (24) 
市 几 CAL )p(ol#)}> -| 这 won1g) | 
重 闪 子 空间 聚 类 的 目的 是 判断 高 维 数据 的 不 同 子 空间 的 数 
据 艇 是 否 存在 重 夺 关系 。 通 过 将 高 维 数据 利用 低 维 子 空间 线性 
表示 ， 得 到 数据 点 较为 相似 且 稠 密 的 子 空 间 ， 针 对 这 些 子 空间 
使 用 重 又 概率 模型 用 于 判断 数据 簇 间 的 重 双 问题。 判断 过 程 中 


需要 对 模型 的 参数 进行 估计 ， 还 要 对 每 个 数据 推断 出 潜在 复 
的 赋值 向 量 上 。 对 于 每 个 数据 点 (>,p) 是 条 件 独立 的 ， 所 以 重 
车 概 率 模型 可 通过 求解 条 件 概 率 的 最 大 化 似 然 函数 求 得 ， 需 要 
通过 对 联合 概率 函数 乘积 取 log 并 将 其 最 大 化 ， 可 表示 为 


皮 


ZL( 0,B,0)= > egp07 lw pb.0) CO5) 
根据 式 (24) 可 得 到 
本 > gp ,b | 9B,0)= 
ba p(b| ap)+ Plog p(y,16,0 ) = 
所 训 (26) 


wel Ses(l, plblgi) p(tsl eB ea) 


max be og p(y;10, )-logc(b, ] 
上 式 可 知 ， 计 算 重 车 数据 的 关键 在 于 二 值 向 量 5 的 选择 
以 及 参数 &, PB, 9 的 估计 。 
2.3 ”参数 估计 
在 参数 估计 部 分 使 用 交 蔡 最 大 化 算法 1 对 子 空间 重 半 
率 模型 中 的 参数 进行 估计 ， 其 过 程 主要 分 为 两 个 部 分 ， 布尔 所 
量 b 的 选择 和 Q,p,9 参 数 估 计 。 在 布尔 向 量 选 择 部 分 ， 给 多 


人 丰 


本 数据 为 重 夺 数据 ， 可 属于 多 个 子 空间 。 
2) 0, ,9 参数 估计 
a) 参 数 &,B 估计 。 给 定 布尔 向 量 集 包 ， 令 二 表示 包 中 1 的 
个 数 ， 则 -ti 表示 5b 中 0 的 个 数 。 最 优 贝塔 分 布 参数 满足 下 
式 : 


B nt 

在 本 文 实验 中 取 忆 =1， 则 ww = 女 /(2 一 加 。 

b) 参 数 9 估计 。 利 用 式 (26) 的 对 数 似 然 函数 第 二 部 分 计算 最 
优 极 值 9, ; 

计算 最 优 极 值 9 的 具体 推导 
2.4 算法 描述 

算法 2 OSCSC 

输入 :数据 集 X ， 权 衡 系数 4 ， 类 数 L， 初 始 温度 。 


时 过 程 见 附录 1。 


输出 : ” 聚 类 结果 。 

利用 式 (13) 得 到 加 权 的 于 和 Frobenius 混合 范 数 的 子 空间 表 
示 模 型 ; 

根据 算法 1 优化 得 到 Z* ， 并 得 到 求 出 相似 矩阵 


1 T 
U ==(2|+]z ); 


= 间 进 行 分 割 并 得 到 子 


使 用 一 种 标准 分 割 方法 Ncut 对 子 空 
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空间 集合 (5,7) ; 
对 得 到 的 (5,Y) 使 用 重 关 概率 模 
根据 式 (25) 得 到 最 大 似 然 函数 L( 
for 每 次 迭代 
固定 (QB,0) ， 优 化 5 。 
固定 5 ， 使 用 优化 (0&,6,0) 。 

对 于 每 层 选取 的 布尔 向 量 利用 模拟 退火 算法 搜索 最 优 解 ， 
即 得 到 最 终 的 布尔 向 量 值 5 ， 并 根据 b 判断 重 琶 情况 。 


3 ”实验 结果 与 分 析 


为 了 验证 OSCSC 算法 的 有 效 性 ， 实 验 选 取 5 种 聚 类 算法 
与 本 文 算法 进行 对 比 ， 并 在 人 造 数据 集 以 及 真实 基准 数据 集 测 
试 算法 性 能 。5 种 对 比 算法 分 别 为 SSC，LSR，RSSC，MOC 和 
BOSC。 本 文 在 MATLAB R2016a 编程 环境 下 实现 。 

实验 采用 聚 类 准确 率 AC(accuracy)02?20、 标 准 化 互信 息 
NMICormalized mutual information)PJ 以 及 运行 时 间作 为 评价 
准则 用 于 评价 OSCSC 算法 性 能 。 为 了 提高 算法 的 可 靠 性 ， 将 
实验 中 的 6 种 算法 独立 运行 10 次 ，AC 计算 公式 为 


N 


>.5(s, ,map(r)) 
AC= 刁 一 一 一 一 一 
N 
其 中 : N 为 样本 总 数 ， 6( ) 函数 表示 的 意义 为 ， 当 函数 内 两 个 
参数 相等 时 , 函数 值 为 1, 否则 为 0。s; 为 样本 数据 原始 类 别 ， 
7; 为 聚 类 后 样本 数据 的 类 别 ，map(;) 为 映射 函数 , 将 聚 类 后 的 
类 别 映 射 为 与 样本 原始 类 别 等 价 的 类 别 。 
NMI 的 计算 公式 为 


数 ; 


o 


型 得 到 其 联合 分 布 函 
b, 0,P,0) 并 估计 参数 


p> ” nln 


i=1 j=1 


(Gers 


其 中 : N 为 样本 总 数 , c 为 类 簇 数 ，n; 和 分别 表示 为 属于 类 入 
i 和 类 簇 j 的 样本 数 ， 为 属于 类 簇 i 和 类 簇 j 的 相同 样本 的 
个 数 。 

3.1 人 造 数 据 集 实验 结果 

为 了 测试 算法 性 能 ， 本 节 实 验 采 用 文献 [22] 的 方法 随机 生 
成 两 个 人 造 数 据 集 datasetl 和 dataset2。 人 造 数 据 集 datasetl 中 
包含 500 个 数据 样本 , 类 数 为 4, 维度 为 30。 人 造 数 据 集 dataset2 
中 包含 3 000 个 数据 样本 ， 类 数 为 6， 维度 为 80。 为 了 更 加 接 
近 真 实数 据 集 ， 在 人 造 数据 集中 定义 不 同类 之 间 存 在 一 定 的 重 
辣 样 本 , 用 于 测试 算法 发 现 重 车 簇 的 能 力 。 人 造 数 据 集 datasetl 
和 dataset2 的 基本 信息 如 表 1 所 示 。 

本 文 使 用 权衡 系数 4 平衡 i 范 数 和 Frobenius 范 数 之 间 的 
关系 ， 通 过 改变 4 的 值 使 得 聚 类 效果 最 佳 。 在 2 个 人 造 数 据 全 
上 4 与 算法 聚 类 准确 率 间 的 关系 如 图 1 所 示 ， 根 据 图 1 可 知 当 
4 分 别 取 0.8 和 0.85 时 使 得 算法 聚 类 准确 率 最 佳 。 实 验 将 


Ni 


7 
nn 和 


NMI = 


uy 


试 .6 种 算法 在 dataset1 上 的 实验 结果 见 表 2.6 种 算法 在 dataset2 
上 的 实验 结果 见 表 3。 
表 1 人 造 数 据 集 信 息 


数据 集 类 别 ”样本 数 ”维度 
1 62 30 
2 207 30 
datasetl 
3 136 30 
4 95 30 
1 253 80 
2 657 80 
3 510 80 
dataset2 
4 649 80 
5 389 80 
6 542 80 


dataset1 


” a ee 
60 


聚 类 准 克 冻 /% 
时 


0 0.1 02 03 04 


(a) 人 造 数 据 集 


dataset2 


05 06 07 08 09 下 


ij 


一 人 一 人 
60 


豪 类 准 侯 肉 /% 
g 


0 0.1 02 03 04 


(b) 人 造 数 据 集 2 
图 1 权衡 系数 4 与 聚 类 准确 率 的 关系 


05 06 07 0.80.850.9 1 


表 2 6 种 算法 在 datasetl 上 的 实验 结果 对 比 (%) 


SSC RSSC LSR MOC BOSC OSCSC 

均值 68.83 72.53 71.37 68.55 72.91 76.43 

标准 差 1.003 0.885 0.542 1.126 0.937 0.953 

均值 69.54 70.56 70.87 69.47 74.29 77.52 

标准 差 0.857 0.962 1.233 0.779 1.025 0.874 

运行 时 间 /s ” 均值 5.16 642 1.13 10.63 8.74 7.51 
表 3 6 种 算法 在 dataset2 上 的 实验 结果 对 比 (%) 

SSC RSSC LSR MOC BOSC OSCSC 

多 值 ”62.87 65.53 64.74 64.23 68.96 70.35 

ee 标准 差 1.705 1.139 1.224 0.721 1.337 1.125 

多 值 64.05 64.81 62.57 66.42 68.32 72.14 

es 标准 差 1.418 1.059 1.263 0.931 1.163 0.985 

运行 时 间 /s 多 值 ”54.93 60.19 13.89 92.57 77.83 74.22 


根据 datasetl 和 dataset2 数据 集 上 的 实验 结果 可 知 MOC、 


ay 
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录用 稿 印 云 飞 ， 等 : 稀 政 条 件 下 的 重合 子 空间 聚 类 算法 
BOSC 和 OSCSC 算法 的 聚 类 准确 率 要 优 于 SSC、LSR、RSSC 过 5 真实 数据 集 基本 信息 
等 基于 硬 划分 的 聚 类 方法 ， 但 MOC 和 BOSC 算法 在 处 理 样本 数据 集 ”类 数 ”样本 数 ”维度 
数 较 大 、 数 据 分 布 稀 朴 是 具有 一 定 维度 的 数据 集 时 ， 不 能 充分 mk 6 
利用 数据 空间 信息 ， 导 致 算法 运行 速率 较 差 。 本 文 算法 利用 加 soybean 19 307 35 
权 的 混合 范 数 子 空间 表示 方法 将 高 维 数据 空间 划分 为 若干 低 维 waveform 3 5000 21 
子 空间 集合 ， 从 一 定 程度 上 减少 了 对 样本 数据 集 直 接 进 行 重 看 pendigits 10 10992 16 
取 类 的 难度 ， 能 够 较 好 地 处 理 具 有 一 定 规模 和 一 定 维度 的 数据 2 
USPS 10 1000 256 
集 。 根 据 表 2 和 3 的 结果 可 以 看 出 本 文 算法 在 两 种 规模 不 同 的 
人 造 数据 集 上 均 取 得 了 较为 理想 的 聚 类 性 能 。 通 过 对 比 6 种 聚 由 于 4 主要 用 于 平衡 两 个 正则 项 之 间 的 关系 ， 其 取 值 会 直 
类 算法 的 平均 运行 时 间 可 知 ， 其 中 LSR 算法 运行 效率 较 高 ， 接 影响 算法 的 聚 类 结果 。 故 本 节 实 验 给 出 OSCSC 算法 在 6 个 


下 


OSCSC 算法 由 于 在 判断 重 夺 数据 时 采用 概率 模型 并 使 用 模拟 。 ”真实 数据 集 上 权衡 系数 4 与 算法 聚 类 准确 率 间 的 关系 ， 如 图 2 
退火 的 方法 使 该 模型 尽 可 能 收敛 于 全 局 最 优 解 ， 保 证 聚 类 的 准 。 所 示 。 由 图 2 可 知 ， 在 musk 数据 集 上 当权 衡 系 数 和 4=0.75 时 ， 


确 性 ， 这 样 会 增加 算法 的 运行 时 间 ， 但 MOC 和 BOSC 算法 相 能 够 得 到 最 佳 聚 类 结果 ， 依 次 地 ， 在 soybean、waveform、 

比较 而 言 ， 本 文 算法 的 运行 时 间 较 为 理想 。 pendigits、AR 和 USPS 数据 集 上 4 分 别 取 0.95、0.85、0.8、0.7 
为 了 进一步 验证 OSCSC 算法 处 理 噪声 数据 的 有 效 性 ， 实 。 和 0.8 时 本 文 算法 可 以 获得 最 佳 聚 类 结果 。 

验 在 两 个 人 造 数 据 集 上 加 入 不 同比 例 的 噪声 干扰 ( 受 干扰 的 数 将 6 种 算法 在 六 个 真实 数据 集 上 进行 测试 ， 其 AC 和 NMI 

据 位 置 随机 选 定 ), 分 别 测试 6 种 算法 的 聚 类 准确 率 。 噪 声 干扰 ” ”的 实验 结果 分 别 见 表 6、7。 根 据 表 6 和 7 的 实验 结果 可 知 ， 


比例 依次 设置 为 10%、20%、30%、40% 和 50%， 实 验 结果 见 表 ”OSCSC 算法 在 6 个 真实 数据 集 上 均 能 够 取得 较为 理想 的 聚 类 
4。 根据 表 4 的 实验 结果 可 以 看 出 , 本 文 算法 能 够 处 理 不 同 程度 结果 。SSC、LSR、RSSC 算法 均 为 基于 硬 划分 的 聚 类 方法 ， 当 
的 噪声 数据 集 并 且 与 其 他 算法 相 比 当 噪 声 干扰 程度 的 增 大 时 在 聚 类 过 程 中 发 生 错 误 时 无 法 及 时 校 验 ， 导 致 数据 无 法 归于 正 


OSCSC 算法 的 聚 类 准确 率 变化 不 大 ， 受 噪声 影响 较 小 。 确 的 类 中 。MOC、BOSC 和 OSCSC 算法 均 属 于 软 划 分 方法 ， 
表 4 不 同 噪声 程度 下 6 种 算法 的 聚 类 准确 率 mm ”人 允许 数据 属于 多 个 类 别 。 但 是 MOC 和 BOSC 在 处 理 一 定数 据 


混合 范 数 的 子 空间 表示 方法 将 其 分 割 为 若干 子 空间 ， 并 对 子 空 


10% 68.72 72.27 70.82 67.73 72.17 75.86 
20% 6807 7139 6941 6719 7093 75.43 间 内 的 数据 进行 聚 类 分 析 ， 在 保证 同一 子 空间 数据 的 稠密 性 和 
dlabasel 30% 6656 7083 6827 6601 6954 7422 不 同 子 空间 数据 的 稀 玻 性 , 尽 可 能 将 数据 划分 到 正确 子 空间 内 。 
40% 6338 6834 6597 6475 6831 73.59 其 次 对 得 到 的 结果 使 用 重 登 概率 模型 进行 二 次 校 验 ， 避 免 了 在 
50% 6088 6536 6271 6178 6582 72.46 整个 高 维 空间 内 直接 对 数据 进行 匹配 ， 利 用 重 欠 概率 模型 
10% 62.13 6486 6425 63.71 68.45 7024 能 够 有 效 地 发 现 数 据 集 内 的 重 炙 样本 ， 将 错误 分 配 的 数据 归 到 
© 20% 61.49 6431 63.58 63.08 6762 69.43 正确 的 子 空间 中 ， 提 高 了 聚 类 的 准确 率 。 通 过 表 6 和 7 的 每 个 
database2 30% 6037 6294 62.46 62.72 6623 68.55 算法 结果 的 标准 差 可 知 ， 本 文 算法 每 次 运行 所 得 到 的 结果 较为 
40% 58.63 60.44 61.09 61.28 64.84 67.23 稳定 。 
50% 55.89 57.64 59.83 59.29 63.15 65.61 表 6 六 种 算法 在 真实 数据 集 上 的 AC 实验 结果 (%) 
musk soybean waveform pendigits AR USPS 
3.2 ”真实 数据 集 实验 结果 a 均值 67.57 69.87 60.26 55.86 70.23 52.53 
本 节 实 验 采 用 国际 通用 的 六 个 真实 数据 集 测试 算法 性 能 。 标准 差 0.824 1.197 0.735 1.434 0.768 1.005 
真实 数据 集 基 本 信息 如 表 5 所 示 。 其 中 ，musk、 soybean 、 RSSG 均值 70.37 71.54 59.87 56.93 71.52 61.67 
waveform 和 pendigits 均 为 UCI 数据 集 (http://archive.ics.uci. 标准 差 1.025 0.984 0.723 1.174 0.692 1.325 
edu/mldatasets.html) 。USPS 为 手写 数字 数据 集 ( http//www. a 匀 值 71.51 68.11 62.72 59.43 73.68 68.71 
标准 差 0.779 1.265 0.952 1.085 0.843 1.146 
cs.nyu.edu/~roweis/data.html)， 包 含 0~9 共 10 种 类 型 的 数字 图 区 从 D232 DN 62 1928 7241 66.43 
像 ， 每 幅 图 片 大 小 为 16x16， 由 一 个 256 维 的 特征 向 量 表示 ， ”标准 着 2311 1485 1241 1.486 2.013 1341 
本 文 从 每 个 类 中 随机 选取 100 幅 图 像 ( 共 1000 幅 图 像 ) 用 于 测 Re 多 值 71.85 74.93 70.83 86.78 74.65 68.43 
试 。 AR 数据 集 (http://www2.ece.ohio-state.edu/~aleix/ARdatabase. 标准 差 0.966 0.789 0.951 0.737 0.971 0.743 
htmD 包 含 了 126 人 超过 4000 幅 人 脸 图 像 ， 本 文 随机 选取 其 中 OsCsc 均值 7034 7813 7055 92.86 8037 7428 
80 人 共 960 幅 图 像 进行 测试 , 利用 降 采 样 方式 将 每 幅 图 像 大 小 标准 差 0.836 1.147 0.972 1.336 0.624 0.858 


将 至 32x24。 
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区 ee ed a. 
二 二 
(a)musk 数据 集 (b)soybean 数据 集 
。 -i 
二 -人 £ 
(c)waveform 数据 集 (d)pendigits 数据 集 
本 村 本 va 
| a | 
: : 
(e)AR 数据 集 (人 USPS 数据 集 
图 2 ”权衡 系数 4 与 聚 类 准确 率 的 关系 
人 这 些 划分 好 的 子 空间 内 数据 进行 重 秋 判断 ， 而 没有 从 整个 数据 
ee 空间 直接 进行 重 登 聚 类 ， 降 低 了 直接 处 理 高 维 数据 的 难度 ， 算 
ee 法 的 运行 效率 与 其 他 重 登 聚 类 算法 相 比较 为 理想 。 与 SSC 和 
ER RSSC 相 比 ， 根 据 不 同 数据 集 的 特性 而 言 ， 如 果 数据 集 本 身 存 
人 在 重大 数据 较 多 ， 本 文 利用 重合 概率 模型 判断 数据 重 丢 时 所 时 
标准 差 1.042 0.848 1.105 0.836 0.773 0.834 间 较 长 ， 运 行 效率 要 低 于 SSC、RSSC 算法 。OSCSC 算法 在 对 
均值 65.31 59.98 54.06 52.93 74.35 65.72 pendigits 数据 集 进行 聚 类 时 所 用 时 间 较 长 ， 其 原因 是 该 数据 集 
从 内 数据 的 重 肥 情况 较 多 ， 算 法 利用 重 且 概率 模型 处 理 重 又 问题 
区 什 6481 6512 5848 73.44 14.91 63.48 时 将 这 些 重 炙 数据 分 配 到 对 应 的 不 同 子 空间 的 过 程 会 消耗 较 多 
VC 标准 着 1258 0924 1263 1575 1.429 1.126 的 时 间 。 其 次 由 于 soybean 数据 集 和 AR 数据 集 内 包含 的 类 别 
人 数 较 多 ,在 计算 数据 重 辣 情 况 时 ,算法 需要 判断 的 类 别 数 较 多 ， 
BOSC a 兽 加 了 算法 的 聚 类 时 间 ， 可 见 采 用 软 划分 技术 的 聚 类 算法 在 处 
理 类 别 数 较 多 的 数据 集 时 时 间 消 耗 过 多 。 但 综合 表 6 和 7 的 实 


均值 64.24 73.87 61.29 86.31 78.24 72.93 


We 


OSCS 


验 结果 ， 本 文 算法 的 整体 聚 类 性 能 要 优 于 其 他 五 种 聚 类 算法 。 


C 
标准 差 0.931 1.157 0.947 1.321 0.863 0.679 
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六 种 算法 在 真实 数 提 4 平均 运行 时 间 如 表 8 所 示 。 根 
据 表 8 可 知 LSR 算法 的 运行 时 间 最 短 ，OSCSC 算法 在 处 理 规 本 文 提 出 的 OSCSC 算法 采用 加 权 的 五 范 数 和 Frobenius 范 
模 较 大 的 数据 集 时 算法 的 运行 速率 要 优 于 与 MOC 和 BOSC 算 数 的 混合 范 数 表示 方法 建立 子 空间 模型 ， 将 高 维 数 据 通 过 低 维 
法 ， 这 是 由 于 本 文 算法 在 对 数据 样本 进行 重 芭 判断 之 前 ， 充 分 。 子 空间 线性 表示 ， 提 高 了 同一 子 空间 数据 的 稠密 性 和 不 同 子 空 
利用 高 维 数据 的 低 维 子 空间 表示 结构 进行 子 空间 划分 ， 并 针对 ， 间 数 据 的 稀疏 性 。 对 已 划分 的 子 空间 使 用 重 倒 概率 模型 判断 子 
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空间 内 数据 的 重 辣 情况 ， 并 通过 交 蔡 最 大 化 算法 对 模型 进行 参 
数 估计 ， 在 参数 估计 过 程 中 使 用 模拟 退火 的 方法 寻求 模型 的 最 
多 解 ， 进 一 步 将 数据 归于 正确 子 空间 内 ， 提 高 了 聚 类 准确 率 。 
在 不 同 规模 的 人 造 数据 集 和 真实 数据 集 上 的 测试 结果 表明 ， 


| 


lu 


OSCSC 算法 能 够 获得 较为 理想 的 聚 类 结果 。 下 一 步 的 工作 将 重 
点 研究 如 何 提 高 重 车 子 空间 算法 的 运行 效率 。 
表 8 六 种 算法 在 真实 数据 集 上 的 平均 运行 时 间 /s 
musk Soybean waveform pendigits AR USPS 


SSC 721 8.34 108.22 191.25 20.83 16.54 


LSR 2.24 3.07 36.71 55.67 4.23 3.32 


RSSC 9.68 11.52 110.57 207.31 28.56 21.75 


MOC 24.55 45.31 146.18 294.47 68.93 63.31 


BOSC 10.73 35.63 93.58 273.67 52.49 53.87 


OSCSC 9.26 33.81 115.34 C269.36 47.32 45.06 
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附录 最 优 极 值 9 的 计算 

利用 式 (26) 的 对 数 似 然 函数 第 二 部 分 完成 参数 9 值 的 估计 ， 即 


f (0)= SS dogp(y 19 )-logc(b, ) 
将 式 (18) 代 入 上 式 可 得 
1(0-$(70)Ss00 -2 
将 上 式 对 色 求 二 阶 导数 ， 可 得 
V2 f/(0) = avio( Sh] 


由 于 9(9) 为 累积 量 函数 ,其 值 为 正 数 ,所 以 得 到 的 Vf(9) 为 负 ， 
(9) 表现 为 凸 函数 。 由 此 可 将 1(9) 对 外 求 一 阶 导数 , 使 其 为 0, 计 
算 最 优 极 值 9 ， 其 最 优 极 值 为 


n L+l n 


-> bwb, + Vap > TO) 


i=1;b =1 w= i=1;b; =1 


